NOPE LinkedIn

Articles dans spaCy...

Catégories:
Blog

Quand spaCy ne voit pas l'infrastructure : le problème NLP des logs de sécurité

Quand spaCy ne voit pas l’infrastructure : le problème NLP des logs de sécurité Avant d’envoyer des logs à un éditeur de logiciels pour investigation, à un LLM externe pour analyse, ou simplement de les archiver conformément au RGPD, une question s’impose : ces logs contiennent-ils des informations qui exposent mon infrastructure ? La réponse est presque toujours oui. Et les outils NLP standards — aussi performants soient-ils sur le langage courant — sont largement aveugles aux entités spécifiques au domaine de la sécurité. Read More...

Tagged NLP, NER, Anonymisation, Logs, spaCy, Sécurité, RGPD, MLOps, Cybersécurité, PII

Catégories:
Blog

Entraîner un NER sécurité : du corpus annoté au modèle en production

Entraîner un NER sécurité : du corpus annoté au modèle en production Les entités de sécurité que spaCy standard ne détecte pas ne sont pas impossibles à apprendre — elles sont simplement absentes de ses données d’entraînement. La solution n’est pas de remplacer spaCy par un LLM lourd, mais d’entraîner le composant NER de spaCy sur des exemples spécifiques au domaine. Ce chemin — annotation LLM-assistée → fine-tuning spaCy → modèle production léger — est à la fois robuste et déployable sans GPU. Read More...

Tagged NLP, NER, spaCy, Fine-tuning, Anonymisation, Logs, Cybersécurité, MLOps, Dataset

Catégories:
Blog

La session partagée : garantir la cohérence d'anonymisation sur un batch de logs

La session partagée : garantir la cohérence d’anonymisation sur un batch de logs Anonymiser un fichier de logs est résolu. Anonymiser un batch de fichiers de logs de manière cohérente — même entité, même token, partout — est un problème d’architecture non trivial que les outils standards ne résolvent pas. C’est pourtant la condition minimum pour que les logs anonymisés restent exploitables par leur destinataire. Le cas d’usage qui impose la contrainte L’infrastructure rencontre un problème critique. Read More...

Tagged Anonymisation, Architecture, Logs, NLP, Cohérence, Pipeline, MLOps, anonyfiles, spaCy, Cybersécurité